草庐IT

Python KMeans 聚类单词

全部标签

hadoop - 如何在不耗尽内存的情况下运行大型 Mahout 模糊 kmeans 聚类?

我在Amazon的EMR(AMI2.3.1)上运行Mahout0.7模糊k-means集群,并且我的内存不足。我的总体问题:如何最轻松地让它发挥作用?这是一个调用:./bin/mahoutfkmeans\--inputs3://.../foo/vectors.seq\--outputs3://.../foo/fuzzyk2\--numClusters128\--clusterss3://.../foo/initial_clusters/\--maxIter20\--m2\--methodmapreduce\--distanceMeasureorg.apache.mahout.commo

hadoop - ClassCastException : org. apache.hadoop.io.Text 无法在 K-Means 聚类 Mahout 中转换为 org.apache.hadoop.io.IntWritable

我正在使用Mahout命令进行K均值聚类,输入文件是“KMeansData.csv”,数据是这种格式,John,M,30,Pepsi,USJack,M,25,Coke,USDavid,M,34,Pepsi,UKTed,M,37,Limca,CANRobert,M,23,Limca,USAdrian,M,31,Pepsi,USCraig,M,37,Coke,UKKatie,F,23,Limca,UKNancy,F,32,Pepsi,UK我能够成功完成以下步骤,它们是,./mahoutseqdirectory-i/root/Mahout/Clustering/-o/root/Mahout/

java - 键值对的聚类

我有这个问题。我有一组非常大(以百万计)的键值对,其中某个唯一ID作为键,一个字符串作为值(对于2个或更多键,字符串可能完全相似)。我必须将这些键值对组合在一起,因为第1组包含一些id-string对,第2组包含一些其他对等。需要根据字符串之间的相似性进行分组,这些字符串实际上是对的值。我已经在这些字符串之间实现了Levenshtein距离,并将距离小于阈值距离的对分组在一起。我用传统的(非常糟糕的)方式实现了它:将每个字符串相互比较。我需要一些关于如何优化它的提示。我真的可以在Hadoop中使用Map-Reduce将键值对组合在一起吗?我认为map和reduce函数的输入是单独且独立

hadoop - 计算 pig 列中单词的出现次数

我有一个文件,其中的行看起来像这样。('www.example.com','FirstNameLastName','12345','Firstname','Lastname','1967-05-16','Organizationname')使用PIG,我想计算文件中相同的“组织名称”出现的次数,并以以下格式输出'CountResult','www.example.com','FirstNameLastName','Organizationname'这是我到目前为止所做的尝试,我知道我在countOccurance行遗漏了一些东西,但无法弄清楚是什么:data=LOAD'data'AS(

Hadoop WordCount 为所有单词提供 0 个计数

我在使用hadoop中的WordCount程序时遇到了问题。字数不正确,所有字都显示为0,但输出中存在所有不同的字。这是我的示例数据,已加载到hdfs中#filename:file01.txtHelloWorldByeWorld和#filename:file02.txtHelloHadoopByeHadoop这是来源:importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.mapred.*;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.io.

lucene - 单词共现 - 在一组 n-gram 中找到一个术语的共现

我将如何着手编写一个类似Java的同现类,它需要一个充满n-gram的文件并计算给定输入术语的词同现。是否有任何库或包可以与Lucene(索引)或类似Hadoop中n-gram列表的map-reduce一起工作?谢谢。 最佳答案 好吧,假设你想在一个ngram文件中找到两个不同单词的共现......这是伪代码式的Java://Co-occurrencematrixHashmap>map=newHashMap();//ListofngramsArrayList>ngrams=.....//assumewe'veloadedthemin

hadoop - Hadoop 的分区器,用于 key 的前两个单词

当我执行Hadoop流式处理时。有映射器的输出(键,值)键是用空格分隔的单词序列。我想使用返回前两个单词的哈希值的分区器。所以,实现为publicstaticclassCounterPartitionerextendsPartitioner{@OverridepublicintgetPartition(Textkey,IntWritablevalue,intnumPartitions){String[]line=key.toString().split("");Stringprefix=(line.length>1)?(line[0]+line[1]):line[0];return(p

Hadoop Word Count 工作但不能总结单词

我使用的是Hadoop1.2.1,出于某种原因,我的WordCount输出看起来很奇怪:输入文件:thisisspartathiswasspartahelloworldgoodbyeworldhdfs输出:goodbye1hello1is1sparta1sparta1this1this1was1world1world1代码:publicclassWordCount{publicstaticclassMapextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();p

hadoop - mahout kmeans 聚类 : showing error

我试图在mahout中对数据进行聚类。显示错误。这是错误java.lang.ArrayIndexOutOfBoundsException:0atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.populateClusterModels(ClusterClassificationMapper.java:129)atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.setup(ClusterClassificationMapp

regex - Hive with Regex SerDe 拆分行,每个单词成为一列

我正在尝试使用正则表达式SerDe从文本文件创建配置单元表。我开始很容易,只想将文本文档中的每个单词解析成一行。每行有一列,就是单词。我使用的正则表达式是([a-zA-z]+)这是我向hive发出的创建表命令的后半部分,行格式SERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="([a-zA-Z]+)","output.format.string"="%1$s")存储为文本文件;目前该表几乎全部为NULL。任何帮助都会很棒,谢谢! 最